دسته بندی اسناد کوتاه برای استخراج کلمات کلیدی و گسترش پرسوجو ها

پایان نامه
چکیده

کاوش متن پردازشی است که برای پیدا کردن و بهبود اطلاعات از متن به کار می رود. با کاوش می توان اجرای جستجوها را با توجه به ارتباط یادگیری ماشین و بازیابی اطلاعات بهبود بخشید. برای مثال دسته بندی موضوعی اخبار، یکی از حیطه های تمرکز محققان برای استخراج داده های مهم از محیط های داده ای بزرگ است. به دلیل بالا رفتن محتوی ایجاد شده کاربران روی اینترنت، انواع متن های مختلفی با جذابیت بالا ایجاد شده اند که نیاز است از میان حجم عظیم داده ها, اطلاعات مورد نیاز استخراج گردد. برای این منظور نیاز به دسته بندی اسناد وجود دارد. در این تحقیق به استخراج اطلاعات از اسناد کوتاه که حاوی تعداد کمی کلمه هستند پرداخته شده است. بنابراین دانستن میزان اهمیت کلمات در داخل اسناد ضروری است که این کار از طریق استخراج کلمات کلیدی به وسیله تمرکز بر روی وزن دهی به روابط صورت گرفته است. وقتی از اسناد کوتاه استفاده می شود بزرگترین چالش در وزن دهی روابط این است که کلمات کلیدی در یک سند اغلب فقط یکبار تکرار می شوند که این کار را دشوار می سازد. در این تحقیق روش هایی برای وزن دهی کلمات ارائه کرده و بر اساس وزن های ارائه شده، اسناد ارزیابی می گردند. ارزیابی اسناد در سه مرحله صورت میگیرد: 1) دسته بندی اسناد 2) استخراج کلمات کلیدی برای تشخیص کلمات خیلی مهم از یک سند و 3) مدل سازی کلمات کلیدی وابسته به هم با هدف شناسایی لینک های مابین کلمات کلیدی و استفاده از آنها برای گسترش پرس وجوها. الگوریتمی که ارائه شده است با استفاده از روش k-means به دسته بندی اسناد می پردازد. بعد از انجام آزمایشات و بررسی های انجام شده نتایج حاصل شده است و مقایسه نتایج با دیگر روش های موجود نشان از برتری الگوریتم ارائه شده دارد.

منابع مشابه

ارائه روشی برای استخراج کلمات کلیدی و وزن‌دهی کلمات برای بهبود طبقه‌بندی متون فارسی

Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...

متن کامل

ارائه روشی جدید برای شاخص‌گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه‌بندی متون

Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...

متن کامل

ارائه روشی جدید برای شاخص گذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشه بندی متون

در زبان فارسی کلمات دارای صورت های نگارشی متنوعی هستند و پوشش کلیه حالات دستوری کلمات با به کارگیری یک سری قواعد معین ناممکن است به همین دلیل استخراج کلمات کلیدی به طور خودکار از متون فارسی دشوار و پیچیده است. در این مقاله سعی شده است با استفاده از اطلاعات زبان شناختی و اصطلاح نامه ، کلمات کلیدی بامعناتری ارائه شود. با استفاده از اصطلاح نامه که از نظامی ساختارمند برخوردار است می توان شبکه کلمات...

متن کامل

دسته بندی ویژگی های استخراج شده از پیش زمینه و پس زمینه تصویر برای ردیابی اهدف متحرک هوایی

چکیده: ردیابی هدف متحرک فرایندی است که در آن یک شیء مشخص در یک دنباله ویدئویی از فریم‌ها تعقیب و مکان آن در هر فریم آشکار می‌شود. هدف از این فرایند تسهیل در پردازش‌های بعدی برای تحلیل رفتار یا شناسایی سوژه متحرک است. در این مقاله رویکردی در زمینه ردیابی اهداف متحرک هوایی بر مبنای الگوریتم‌های تطبیق مشخصه ارائه ‌شده است. چالش موجود، دسته­بندی ویژگی­های استخراج‌شده از پس‌زمینه و پیش­زمینه ناحیه­ ...

متن کامل

رسانه، ابزاری برای دسته بندی نسلها در ایران

عوامل متفاوتی ابژه های یک نسل را ساخته و می توان از چنین شاخص هایی برای بررسی تغییرات و ایجاد تمایز در بین نسلها بهره برد. مطالعات انجام شده در حوزه نسلها را می توان به دو دسته کلان تقسیم نمود. مطالعاتی که به ترسیم ویژگی های یک نسل و یا نسلهای مختلف پرداخته اند و در پی تفسیر علل تفاوت کنش های اجتماعی در نسلهای مختلف بوده اند و دسته دیگر از بررسی ها، به مطالعه وضعیت روابط بین نسلها همت گمارده و ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه تبریز - دانشکده مهندسی برق و کامپیوتر

کلمات کلیدی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023